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1 引言 
1.1 研究 背景 


近年 来 ， 大 数据 迅速 发 展 成 为 科技 界 和 企业 界 甚 至 世界 各 国政 府 关注 的 热点 。《 自 然 

CNature)》 和 《科学 (Science)》 等 杂志 相继 出 版 专刊 来 探讨 大 数据 带 来 的 挑战 和 机 遇 。 著 

名 管理 咨询 公司 麦肯锡 声称 ，“ 数 据 已 经 渗透 到 当今 每 一 个 行业 和 业务 职能 领域 ， 成 为 重要 

的 生产 因素 。 人 们 对 于 大 数据 的 挖掘 和 运用 ， 预 示 着 新 一 波 生产 力 增长 和 消费 者 看 余 ? 浪 潮 

m 的 到 来 >。 在 这 样 的 背景 下 ， 美 国政 府 2012 年 宣布 投资 2 亿美 元 启动 “大 数据 研究 和 发 展 计 
= 划 ”， 这 是 继 1993 年 美国 宣布 “信息 高 速 公路 ?计划 后 的 又 一 次 重大 科技 发 展 部 署 。 美 国政 府 
co 认为 大 数据 是 “未 来 的 新 石油 ”一 个 国家 拥有 数据 的 规模 和 运用 数据 的 能 力 将 成 为 综合 国力 
v 的 重要 组 成 部 分 ， 对 数据 的 占有 和 控制 将 成 为 国家 间 和 企业 间 新 的 争夺 焦点 。 大 数据 已 成 为 
e 社会 各 界 关 注 的 新 焦点 , “大 数据 时 代 " 已 然 来 临 。 


一 般 意 义 上 ， 大 数据 是 指 无 法 在 可 容忍 的 时 间 内 用 现 有 IT 技术 和 软 人 硬件 工具 对 其 进行 
N RS, IRR, EM, OMRE BAA. MAEA PERAE ERA RAE 
Y 物理 学 和 脑 科 学 等 ) 的 研究 工作 产生 了 越 来 越 多 的 数据 。 例 如 ,用 电子 显微镜 重建 大 脑 中 的 
c2 突 触 网 络 ，1 立方 毫米 大 脑 的 图 像 数 据 就 超过 1PB“*。 但 近年 来 大 数据 数量 的 飙升 主要 来 自 
d 人 们 的 日 常生 活 ， 特 别 是 互联 网 公司 的 服务 。 据 著名 咨询 公司 IDC 的 统计 ，2011 年 全 球 被 
= 创建 和 复制 的 数据 总 量 为 LSZB^, JEP 75% 来 自 于 个 人 (主要 是 图 片 、 视 频 和 音乐 )， 远 远 
p 超过 人 类 有 史 以 来 所 有 印刷 材料 的 数据 总 量 (200PBO. 43k (Google) 公司 每 月 处 理 的 数 
据 量 超过 400PB; 百度 每 天 大 约 要 处 理 几 十 PB 数据 ; Facebook (ii) 注册 用 户 超过 10 
= 亿 ， 每 月 上 传 的 照片 超过 10 亿 张 ， 每 天 生成 300TB“ 以 上 的 日 志 数据 。 总 之 ， 随 着 互联 网 、 
© 物 联 网 、 云 计算 等 技术 的 迅猛 发 展 , 网 络 空间 中 各 类 应 用 的 层出不穷 引发 了 数据 规模 的 爆炸 
式 增长 。 


与 传统 规模 的 数据 工程 相 比 ， 大 数据 具有 几 个 显著 的 特征 : 〈1) 数据 集合 的 规模 不 断 扩 
K, BAM GB, TB 再 到 PB， 其 至 已 经 开始 以 EBA ZB 来 计数 。IDC 的 研究 报告 称 ， 未 
来 十 年 全 球 大 数据 将 增加 50 倍 ， 管 理 数据 仓库 的 服务 器 的 数量 将 增加 10 倍 以 便 这 一 增长 ; 
(2) 大 数据 类 型 繁多 ， 包 括 结构 化 数据 、 半 结构 化 数据 和 非 结 构 化 数据 。 现 代 互 联网 应 用 
呈现 出 非 结构 化 数据 大 幅 增长 的 特点 ， 至 2012 年 末 非 结构 化 数据 占有 比例 会 达到 整个 数据 
量 的 75% 以 上 ; 3) 产生 速度 快 , 处 理 能 力 要 求 高 ,根据 IDC 的 “数字 宇宙 (Digital Universe) 
报告 ， 预 计 到 2020 年 ， 全 球 数 据 使 用 量 将 达到 35.2ZB; 在 如 此 海量 的 数据 面前 ， 处 理 数 据 
的 效率 就 是 企业 的 生命 。 大 数据 往往 以 数据 流 的 形式 动态 、 快 速 地 产生 和 演变 ， 具 有 很 强 的 
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时 效 性 ， 只 有 把 握 好 对 数据 流 的 掌控 才能 有 效 利 用 这 些 数 据 ;〈4) 数据 真 伪 难 辨 ,可靠 性 要 
求 更 严格 。 大 数据 的 集合 和 高 密度 的 测量 将 令 “ 错 误 发 现 ? 的 风险 增长 。 斯 坦 福 大 学 的 统计 学 
教授 特 来 沃 尔 - 哈 斯 迪 (Trevor Hastiej 称 ， 如 果 想 要 在 庞大 的 数据 “干草 埃 ” 中 找到 一 根 有 意义 
的 “ 针 ”， 那 么 所 将 面临 的 问题 就 是 “许多 称 草 看 起 来 就 像 是 针 一 样 >;〈5) 数据 价值 大 ， 但 密 
度 低 ， 挖 所 难度 大 。 价 值 密度 的 高 低 与 数据 总 量 的 大 小 成 反比 。 如 何 通过 强大 的 机 器 算法 更 
迅速 地 完成 数据 的 价值 “提取 ”成 为 目前 大 数据 背景 下 吸 待 解决 的 难题 。 


1.2 研究 意义 


大 数据 研究 与 应 用 是 国家 安全 和 经 济 发 展 的 战略 性 需求 , 是 国民 经 济 核心 产业 信息 化 升 
级 的 重要 推动 力量 ， 同 时 正在 引发 科研 范式 的 变革 。 


1.2.1 大 数据 的 研究 与 应 用 是 国家 发 展 的 战略 需求 


当前 全 球 已 全 面 进入 信息 时 代 。 互 联网 、 物 联网 与 云 计算 等 新 兴 IT 技术 的 广泛 应 用 ， 
使 得 全 球 数据 正 以 前 所 未 有 的 速度 剧 增 , 数据 类 型 也 变 得 越 来 越 复杂 。 数据 的 深度 分 析 和 利 
将 对 推动 经 济 持续 增长 、 提 升 国家 的 竞争 力 起 到 重要 的 作用 。 大 数据 时 代 对 海量 数据 的 积 
累 、 加 工 和 利用 能 力 将 成 为 国力 的 新 标志 , 一 个 国家 在 网 络 空间 的 数据 主权 更 将 是 继 海 、 陆 、 
空 、 天 四 个 空间 之 后 另 一 个 大 国 博弈 的 空间 。“ 十 八大 ”报告 中 明确 提出 网 络 空间 与 深海 、 深 
空 是 我 们 国家 核心 利益 的 关键 领域 。 在 大 数据 领域 的 落后 ， 意 味 着 产业 战略 制高点 失守 ,更 
意味 着 国家 安全 将 在 网 络 空间 出 现 漏洞 。 美国 2012 年 3 月 发 布 的 《大 数据 研究 和 发 展 计划 》 
不 仅 是 一 个 推动 美国 在 高 技术 领域 继续 领先 的 战略 计划 , 更 是 一 个 保护 美国 国家 安全 、 推动 
社会 经 济 发 展 的 计划 。 以 美国 为 代表 的 西方 国家 在 国家 顶层 推动 下 , 正在 通过 增强 大 数据 领 
域 竞 争 能 力 进一步 提高 自己 的 综合 国力 。 可 以 预见 未 来 国家 之 间 的 经 济 与 政治 竞争 将 是 大 数 
据 引领 的 竞争 。 


1.2.2 大 数据 研究 是 国民 经 济 核心 产业 信息 化 升级 的 重要 推动 力量 


大 数据 带 来 的 问题 和 困难 是 当下 国民 经 济 中 许多 行业 面临 的 共同 挑战 , 是 这 些 行 业 数字 
化 与 信息 化 的 障碍 和 发 展 瓶 贷 。 对 大 数据 共性 问题 的 研究 , 特别 是 核心 技术 的 突破 ,将 使 产 
业界 能 够 理 清 数 据 关 联 产 生 的 复杂 性 , 掌握 数据 见 余 与 缺失 双重 特征 引起 的 不 确定 性 , 进而 
能 够 根据 实际 需求 从 大 数据 中 挖掘 出 押 绚 含 的 信息 、 知 识 甚至 是 智慧 ， 最 终 达 到 充分 利用 大 
数据 价值 的 目的 。 因 此 ， 大 数据 已 不 再 是 产业 环节 上 产生 的 副产品 ， 反 而 成 为 联系 社会 经 济 
活动 各 个 环节 的 关键 纽带 。 在 这 个 意义 上 , 对 大 数据 共性 问题 与 核心 技术 的 研究 将 是 新 一 代 
信息 技术 融合 应 用 的 新 焦点 , 是 信息 产业 持续 高 速 增长 的 新 引擎 , 也 是 行业 用 户 提 升 竞争 能 
力 的 新 动力 ,面向 未 来 , 大 数据 将 成 为 新 的 经 济 增长 点 ,企业 将 向 分 析 即 服务 (AaaS, Analytics 
as a Service) 升级 转型 ,从 而 改变 行业 的 生态 。 在 这 样 的 背景 下 , 全 球 IT 界 的 巨头 (如 IBM, 
Oracle (FEX) AK MAE) 都 已 经 开始 了 大 数据 时 代 的 技术 布局 。 大 数据 和 云 计算 
被 看 作 是 一 个 硬币 的 正 反 两 面 ， 大 数据 是 云 计算 的 一 个 杀手 级 应 用 ， 云 计算 为 大 数据 提供 
IT 基础 。 大 数据 和 云 计算 的 紧密 而 合 必 将 改变 互联 网 生态 ， 甚 至 影响 整个 产业 的 格局 。 


1.2.3 大 数据 的 基础 研究 将 引发 科学 研究 思维 与 方法 的 变革 


大 数据 的 出 现 引 起 了 科技 界 对 科学 研究 方法 论 的 重新 审视 , 正在 引发 科学 研究 思维 与 方 
法 的 一 场 革命 。 最 早 的 科学 研究 只 有 实验 科学 ,随后 出 现 了 以 研究 各 种 定律 和 定理 为 特征 的 
理论 科学 。 而 由 于 理论 分 析 方法 在 许多 问题 上 过 于 复杂 以 致 难以 解决 实际 问题 ， 人 们 开始 寻 
求 模 拟 的 方法 , 这 又 产生 了 计算 科学 。 大 数据 的 出 现 催生 了 一 种 新 的 科研 模式 ， 即 面 对 大 数 
据 ， 科研 人 员 可 以 从 数据 中 直接 查找 或 挖 抉 所 需要 的 信息 、 知 识 和 智慧 ， 甚 至 无 需 直接 接触 
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研究 的 对 象 。2007 年 ， 已 故 的 图 灵 奖 得 主 吉姆 "格雷 Jim Gray) 在 他 最 后 一 次 演讲 中 描绘 
了 面 对 大 数据 的 数据 密集 型 科学 研究 的 “第 四 范式 (The Fourth Paradigm)” 把 数据 密集 型 
科学 从 计算 科学 中 单独 区 分 开 来 。 格 雷 认为 ， 要 解决 我 们 面临 的 某 些 最 丈 手 的 全 球 性 挑战 ， 
“第 四 范式 ”可 能 是 唯一 具有 系统 性 的 方法 。 其 实 ,“ 第 四 范式 ”不 仅 是 科研 方式 的 变化 ， 也 是 
人 们 思维 方式 的 大 转变 。 


2 ”国内 外 研究 现状 


当前 对 大 数据 的 研究 和 应 用 大 致 可 以 分 为 大 数据 的 复杂 性 和 计算 模型 、 大 数据 的 感知 与 


表示 、 内 容 建 模 与 语义 理解 、 大 数据 计算 的 架构 体系 等 几 个 方面 。 下 面 分 别 对 其 具体 的 研究 
现状 进行 阐述 。 
2.1 大 数据 的 复杂 性 和 计算 模型 


针对 大 数据 的 复杂 性 , 前 期 的 研究 主要 是 对 网 络 上 多 种 来 源 的 数据 进行 性 质 分 析 和 规律 
探索 ， 很 多 学 者 尝试 运用 图 论 和 统计 分 析 等 方法 对 数据 进行 定量 分 析 。 特 别 值得 注意 的 是 ， 
人 们 已 经 发 现 了 复杂 的 网 络 大 数据 之 中 存在 一 些 统计 规律 性 。 璧 如 ， 巴 拉巴 西 (Barabési) 
等 人 通过 对 大 量 电子 邮件 数据 的 分 析 , 证 明 人 类 行为 中 的 通信 、 娱 乐 和 工作 模式 并 不 遵循 泊 
松 过 程 , 而 是 基于 决策 排队 过 程 的 结果 , 即 由 于 存在 优先 次 序 导致 任务 执行 时 间 具 有 重 尾 效 
ASA, REMA (Kleinberg) 等 人 通过 分 散 方法 等 随机 图 算法 发 现 大 规模 社会 网 络 的 小 
址 界 网 络 规律 ， 利 用 理论 模型 解释 了 六 度 分 割 等 现象 站。 美国 卡 内 基 梅 隆 大 学 法 鲁 托 斯 
(Faloutsos) 等 人 通过 对 博客 数据 的 分 析 ， 发 现 博客 中 的 时 序 行为 是 非 均匀 且 突 发 的 ， 具 有 
自 相似 的 特性 馈 。 莱 斯 科 圳 茨 〈Leskovec) 等 通过 对 等 借贷 系统 的 数据 来 研究 网 络 借贷 的 竞 
标 机 制 ， 发 现 类 似 数据 中 带 有 和 群 羊 效应 允 。 面 对 大 数据 的 复杂 性 ， 还 有 一 些 学 者 尝试 使 用 
统计 方法 和 复杂 网 络 方法 来 研究 如 何 对 大 数据 进行 按 需 约 简 。 相 关 数据 约 简 的 方法 多 数 集 ， 
在 对 样本 属性 的 约 简 上 , 其 目的 是 在 保持 分 类 能 力 不 变 的 情况 下 , 删除 其 中 不 重要 的 和 宛 余 
的 属性 ， 同 时 提取 出 重要 的 属性 信息 。 例 如 ， 塞 万 提 斯 (Cervantes) 等 人 使 用 最 小 封闭 球 聚 
类 ， 提 出 基于 支持 向 量 机 的 数据 约 简 方法 中 。 但 这 类 基于 统计 的 方法 在 处 理 大 数据 时 其 时 
效 性 难以 保证 。 


针对 大 数据 的 计算 理论 和 算法 的 研究 目前 主要 集中 在 大 数据 机 器 学 习 的 基础 理论 、 参 数 
估计 方法 、 优 化 算法 等 方面 ， 形 成 的 一 系列 成 果 为 大 数据 高 效 计算 提供 了 理论 支持 。 普 林 斯 
顿 大 学 的 布 莱 (Blei) 等 人 针对 大 规模 网 络 文本 数据 的 主题 建 模 ， 提 出 了 在 线 学 习 算法 ， 为 
大 数据 下 的 非 参 数 模型 的 高 效 估计 奠定 基础 站。 斯 坦 福 大 学 的 马 哈 尼 (Mahoney) 提出 了 随 
机 算法 实现 快速 矩阵 近似 分 解 ， 并 给 出 了 近似 值 和 真实 值 差距 的 理论 边界 ”。 法 重托 斯 等 人 
提出 了 大 规模 张 量 分 析 方 法 ， 可 以 比 原 算法 速度 提高 两 个 数量 级 中 。 美国 加 州 大 学 伯克利 分 
ERA] Gordan) 等 人 开展 了 大 数据 分 析 的 理论 基础 研究 ， 目 前 已 有 的 成 果 包 括 分 布 式 优化 
算法 中 和 大 数据 非 参 数 估计 方法 "等 。 


2.2 大 数据 的 感知 与 表示 


ER Ccrawler) 是 当前 大 数据 感知 和 获取 的 基本 技术 ， 已 得 到 了 迅速 发 展 和 广泛 应 用 ， 
但 仍 不 能 有 效应 对 被 称 为 Web 2.0 的 新 一 代 互 联网 数据 "4。 为 了 有 效 利用 网 络 大 数据 ,需要 


6 Heavy-tailed distribution, 一 种 概率 分 布 模型 ， 其 尾部 比 指数 分 布 “ 厚 ” 
7 Herding effect 指 散 乱 的 群体 往往 会 盲目 地 跟随 或 模仿 某 个 “领头 羊 ” 而 不 顾 存在 的 危机 或 其 他 更 好 的 机 


过 


大 数据 的 核心 问题 与 研究 体系 


将 异 构 、 低 质量 的 网 络 数据 转化 为 结构 统一 的 高 质量 数据 。 因 此 业界 提出 了 一 系列 数据 抽取 
算法 以 应 对 大 数据 的 异 构 性 5 2， 应 用 经 过 扩展 的 传统 数据 集成 技术 从 多 个 异 构 数 据 源 集 
成 数据 中 ， 并 开始 将 过 去 一 些 数据 清洗 和 数据 质量 控制 方面 的 研究 应 用 于 网 络 数据 质量 控 
制 3 池 。 但 总 的 来 说 ， 将 这 些 技术 直接 用 于 大 数据 处 理 ， 在 数据 处 理 的 规模 和 得 到 的 数据 
质量 方面 还 不 能 令 人 满意 。 另 一 方面 , 人们 很 早 就 认识 到 了 动态 性 和 时 效 性 是 大 数据 的 重要 
特性 中， 数据 流 〈data stream) 2003 和 时 间 序 列 Ctime series) tM 是 表示 和 处 理 数据 动态 性 
和 时 效 性 的 主要 技术 。 同 样 ， 从 数据 的 可 处 理 规模 和 功能 上 ,传统 数据 流 和 时 间 序 列 技术 还 
无 法 满足 大 数据 处 理 的 需求 。 


对 大 数据 的 表示 主要 有 图 模型 与 张 量 两 大 类 方法 。 陈 晨 (Chen) 等 人 于 2008 年 首次 提 

出 了 图 上 在 线 分 析 过 程 (Graph OLAP, Online Analytical Processing on Graphs) 的 概念 模型 ， 

根据 边 属性 和 结 点 属性 , 将 Graph OLAP 中 的 维度 划分 成 信息 维和 拓扑 维 中 1。 并 进一步 将 信 

息 维 上 的 聚集 操作 定义 为 信息 在 线 分 析 过 程 (I-OLAP，Information OLAP) ,将 拓扑 维 上 的 

聚集 操作 定义 为 拓扑 在 线 分 析 过 程 (TOLAP，Topology OLAP). Mit% (Tian) 等 人 提出 了 

能 够 为 网 络 提供 不 同 粒度 的 概要 信息 的 两 个 操作 符 SNAP 和 k-SNAP P9, WAA (Boldi) 

一 等 研究 了 图 的 压缩 方法 0， 但 是 只 关注 了 如 何 有 效 地 存储 网 页 的 链接 信息 来 对 Web 图 进行 

2 压缩 ， 以 方便 网 页 排序 CPage-Rank) 和 权威 向 量 的 计算 ， 并 没有 涉及 图 的 结构 问题 。 除 了 

图 之 外 ， 张 量 是 男 一 个 广泛 关注 的 大 数据 表示 方案 。 由 于 没有 破坏 数据 的 领域 、 局 部 和 全 局 

结构 ， 与 向 量 比较 ， 数 据 的 张 量 形 式 表达 能 最 大 限度 地 保持 原始 数据 的 固有 信息 。 瓦 西 列 斯 

库 CVasilescu) 等 人 用 张 量 形式 成 功 地 表达 了 光照 、 视 角 、 类 别 等 儿 个 模 态 的 人 脸 数据 库 忆 1。 

自 此 ， 张 量 表示 在 图 像 、 视 频 、 文 档 等 领域 中 得 到 了 深入 研究 。 辛 顿 (Hinton) 等 革命 性 地 

提出 了 通过 深度 信念 网 (Deep Belief Networks DBNs) 的 非 监 督 贪心 逐 层 训练 的 深度 学 习 

(Deep Learning) 算法， 使 得 研究 在 统一 的 平台 上 进行 特征 提取 的 方法 变 为 可 能 中 。 阿 卡 

(Acar) 等 认为 ,高 维 大 数据 可 以 用 张 量 来 表达 ,而 基于 张 量 计算 的 方法 可 以 从 高 维 大 数据 

提取 有 用 信息 帆 。 潘 (音译 ， Phan) 等 提出 用 张 量 表示 图 像 、 纹 理 、 音 乐谱 的 方法 1。 

针对 大 数据 下 的 张 量 数 据 (Big Tensor Data), 2013 年 斯 蒂 若 帕 洛 斯 (Sidiropoulos) 提出 了 基 
于 压缩 感知 的 核 张 量 计算 方法 3。 


2.3 大 数据 的 内 容 建 模 与 语义 理解 


c 由 于 大 数据 的 规模 巨大 、 高 维 、 异 构 、 多 源 等 特性 ， 当 前 在 大 数据 内 容 建 模 方面 的 工作 
主要 集中 在 数据 的 实体 、 类 别 和 属性 的 提取 与 分 析 等 方面 ,在 大 数据 中 实体 的 属性 学 习 方面 ， 


鲁 萨 科 夫 斯 基 (Russakovsky ) 等 提出 了 利用 ImageNet 进行 属性 学 习 的 方法 外。 派 端 克 
(Parikh) 等 进一步 提出 了 相对 属性 的 学 习 方法 6595。2012 年 ， 斯坦福 大 学 和 谷歌 的 研究 人 员 
构建 了 一 个 多 达 10 亿 个 连接 的 深度 学 习 网 络 。 该 网 络 通过 对 来 自 YouTube A) 的 1000 
万 幅 视 频 帧 的 自主 学 习 ， 学 会 了 识别 猫 的 面孔 嘲 。 他 们 还 对 2.2 万 个 类 别 进行 了 图 像 分 类 ， 
准确 率 达 到 了 15.8%， 比 当前 最 先进 的 方法 提高 了 70%。 而 传统 的 方法 需要 通过 对 图 像 加 标 
签 、 提 取 特 征 、 训 练 分 类 器 等 步骤 才能 够 实现 对 概念 的 识别 。 针 对 大 数据 内 容 理解 的 另 一 个 
重要 进展 是 基于 数据 驱动 (Data-Driven) 方法 的 提出 。2008 F, HERE (Torralba) 等 人 
利用 网 络 中 的 图 像 构建 了 一 个 包含 八 千 万 幅 图 像 的 数据 , 并 利用 该 数据 库 完 成 了 基于 搜索 和 
词汇 树 相 结合 的 图 像 中 物体 、 人 物 、 位 置 等 信息 的 理解 9， 王 心 敬 (音译 ， Wang) 等 人 构 
建 了 一 个 包含 20 亿 幅 图 像 的 数据 库 ， 利 用 该 数据 库 实现 了 一 种 基于 近似 图 像 搜 索 的 图 像 标 
注 方法 中 。 总 体 而 言 ， 目 前 针对 大 数据 内 容 建 模 的 研究 主要 针对 大 数据 的 某 一 特性 展开 ， 
全 面 考虑 大 数据 关键 特征 的 研究 工作 还 很 少 。 


在 语义 理解 方面 , 语义 网 作为 语义 的 核心 载体 ,已 经 得 到 了 实际 应 用 , 利用 语义 网 研究 
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语义 理解 ， 也 开始 得 到 学 术 界 的 关注 。 克 里 斯 带 安 〈Christian) 等 人 提出 了 利用 关联 开放 数 
据 (LOD, Linked Open Data) 的 思想 在 Web 上 不 同 数 据 源 之 间 创 建 语义 关联 鸣 ， 促 进 异 构 
数据 源 之 间 的 互 操作 ;武汉 大 学 何 克 清 等 人 提出 元 模型 与 本 体 相 融合 的 建 模 体系 呈 ， 通 过 
本 体 到 元 模型 、 模 型 、 元 数据 的 语义 标注 ， 在 元 级 上 屏蔽 模型 的 差异 性 ， 以 及 实现 语义 网 上 
异 构 信 息 模型 间 的 语义 互 操作 ， 达 到 无 歧义 语义 理解 。 由 于 大 众 的 广泛 参与 ， 群 体 智能 
(Collective Intelligence) 被 视 为 是 一 种 从 人 类 大 规模 交互 中 所 涌现 出 来 的 社区 知识 库 〈 如 
维基 百科 CWikipedia)) 5B5， 基 于 此 提出 的 交互 式 通信 模式 更 便于 网 络 内 容 的 理解 与 共享 ， 
从 而 解决 一 些 图 灵机 智能 难以 解决 的 语义 理解 问题 。 因 此 ， 可 以 通过 众 包 (Crowdsourcing) 
的 方式 ,借助 群体 智能 ， 来 分 析 和 理解 互联 网 上 的 各 种 信息 。 例如， 使 用 社会 化 标注 来 促进 
语义 浮现 。 这 些 系 统 ( 如 del.icio.us〉 中 尽管 没有 集中 统一 的 控制 ， 但 是 描述 资源 的 标签 分 
布 仍 随时 间 推 移 呈 现 出 一 种 稳定 的 窜 律 分 布 中 ， 可 以 被 有 效 地 用 于 大 众 分 类 法 
(Folksonomy) 的 构建 等 中， 以 辅助 不 同 的 利益 做 关 方 对 模型 内 容 进行 理解 。 但 是 ， 现 有 
方法 难以 满足 大 数据 特征 的 复杂 性 、 动 态 性 和 隐蔽 性 等 特点 , 需要 进一步 研究 新 的 技术 方法 
和 互 操作 机 制 来 加 以 改进 。 


2.4 大 数据 的 存储 与 架构 体系 


大 数据 的 架构 体系 研究 首先 需要 关注 的 问题 就 是 大 数据 如 何 存储 。 在 数据 存储 的 基础 
E, 为 了 应 对 大 数据 的 快速 以 及 高 效 可 靠 处 理 , 需要 建立 大 数据 计算 的 编程 模式 以 及 相关 的 
优化 方法 。 大 数据 存储 的 形式 包括 分 布 式 的 文件 系统 、 分 布 式 的 键 值 对 存储 以 及 分 布 式 数据 
库存 储 。 当 前 的 研究 也 集中 在 这 三 个 方面 ,并 依据 应 用 的 需求 进行 相关 的 优化 。 在 分 布 式 文 
件 系 统 研 究 方面 ， 传 统 的 分 布 式 文件 系统 NFS 应 用 最 为 广泛 名 。 为 了 应 对 搜索 引擎 数据 ， 
谷歌 在 2003 年 公布 了 其 能 够 用 于 存储 网 页 数据 的 分 布 式 文件 系统 技术 GES", 开源 社区 据 
此 开发 了 适合 部 署 在 廉价 的 机 器 上 的 Hadoop 分 布 式 文件 系统 HDFS“ 0 。 微 软 自 行 开发 的 
Cosmos[“ 支 撑 着 其 搜索 、 广 告 等 业务 。2010 年 Facebook 推出 了 专门 针对 海量 小 文件 的 文 
件 系统 Haystack], 以 降低 对 磁盘 寻 道 速度 的 要 求 ,类 似 的 还 有 淘宝 推出 的 文件 系统 TESI, 
键 值 对 存储 也 是 一 大 类 重要 的 存储 系统 。2007 年 亚马逊 (Amazon) 提出 的 Dynamo 以 键 值 
为 模式 ， 是 一 个 真正 意义 上 的 去 中 心 化 的 完全 分 布 式 存储 系统 ， 共 有 高 可 靠 性 、 高 可 用 性 且 
具有 良好 的 容错 机 制 "5。 由 于 模型 的 简单 性 ， 键 值 对 存储 在 应 用 模型 不 是 很 复杂 的 情况 下 
能 够 获得 更 好 的 性 能 。 当 然 ， 数 据 库 模型 还 是 一 大 类 非常 重要 的 存储 模型 。Bigtable 是 谷歌 
开发 的 基于 GES 和 Chubby 的 非 关 系数 据 库 ， 是 一 个 稀 玻 的、 分布 式 的 、 持 和 久 化 存储 的 多 维 
度 排序 映射 表 " 5 。 为 克服 其 缺乏 一 致 性 支持 的 缺点 ，2011 年 谷歌 将 其 改进 为 Megastore 系 
B47) ， 但 是 改进 后 的 系统 性 能 不 是 很 高 。2012 年 谷歌 进一步 开发 了 Spanner 系统 ， 能 够 进 
一 步 加 强 一 致 性 ， 将 数据 分 布 到 了 全 球 的 规模 ， 性 能 有 了 一 定 提高 "中 。Spanner 是 第 一 个 可 
以 实现 全 球 规模 扩展 并 且 支 持 外 部 一 致 的 事务 的 数据 库 。 


从 编程 模式 上 看 , 实时 数据 处 理 是 大 数据 分 析 的 一 个 核心 需求 。 各 个 大 公司 都 有 相关 的 
研究 ， 例 如 Twitter 的 Storm'?!, Yahoo 的 Sa^? p Linkedin 的 Kafka0。 流 式 大 数据 需要 
进行 线 速 处 理 , 程序 的 复杂 程度 不 能 太 高 , 或 者 需要 进行 数据 的 采样 操作 。 而 批 处 理 则 不 然 ， 
要 求 能 够 对 大 规模 的 数据 进行 细致 的 分 析 与 处 理 , 所 需 时 间 较 实时 流 处 理 为 长 。 谷歌 公司 在 
2004 年 提出 的 MapReduce5 编 程 模型 是 最 具 代 表 性 的 批 处 理 模式。 在 此 基础 上 ， 为 支持 增 
量 计算 ， 谷 歌 提 出 增 量 处 理 系统 Percolator | 。 微 软 则 提出 了 Nectar?" 41 DryadInc^?!, Jg 
了 和 MapReduce 兼容 ，Incoop5e 和 IncMRE7 实现 了 MapReduce 框架 下 的 增 量 计算 。 雅 虎 
(Yahoo) 的 Novab5 则 支持 有 状态 的 增 量 数据 计算 模式 。HOP PZE MapReduce 处 理 的 过 
程 中 引入 管道 (pipeline) 的 概念 。 人 民 大 学 WAMDM 实验 室 在 HOP 基础 上 开发 的 COLA 系 
统 [60 在 HOP 系统 的 基础 上 增加 了 数据 采样 、 结 果 估 计 、 置 信 区 间 计 算 等 功能 模块 ， 在 一 定 
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程度 上 提高 了 HOP 的 实时 性 ,在 模型 混合 方面 主要 工作 都 围绕 着 MapReduce 展开 :文献 [61] 
着 重 探讨 了 将 MapReduce 模型 应 用 到 流 处 理 这 种 单 遍 分 析 (one-pass analytics) 的 应 用 时 ， 在 
架构 上 应 当 进行 怎样 的 调整 。StreamMapReducel6 结 合 事件 流 处 理 (Event Stream Processing) 
的 特点 ， 对 MapReduce 中 的 Mapper 和 Reducer 进行 重新 定义 , 增加 了 持续 的 、 低 延迟 的 数 
据 处 理 能 力 。 


3 ”大 数据 研究 的 核心 问题 


尽管 大 数据 的 涌现 为 人 们 提供 了 前 所 未 有 的 宝贵 机 遇 , 但 同时 也 提出 了 重大 的 挑战 。 首 
先 ， 大 数据 规模 巨大 、 分 布 广泛 、 动 态 演变 、 横 态 多 样 、 关 联 复杂 、 真 伪 难 辨 等 一 系列 特性 
带 来 了 数据 复杂 性 的 挑战 。 特别 是 大 数据 模式 多 样 ， 内 容 难 于 理解 ， 关联 关系 复杂 ， 数 据 难 
以 有 效 识别 ;质量 良 劳 不 齐 ， 真 伪 难 以 判定 。 因 此 ， 需 要 揭示 、 度 量 并 刻画 数据 复杂 性 ， 并 
厘清 其 中 的 内 在 关联 机 理 。 其 次 , 大 数据 的 数据 复杂 性 又 不 可 避免 地 带 来 了 关于 大 数据 是 否 

可 以 计算 以 及 计算 复杂 性 的 挑战 。 即 便 大 数据 可 以 计算 ， 当 前 处 理 有 限 规模 数据 的 计算 体系 

已 然 失效 ,因此 需要 寻找 大 数据 计算 的 稳定 内 核 及 计算 边界 , 在 此 基础 上 提出 新 型 的 适应 不 
~ 同 数据 规模 的 计算 范式 。 最 后, 大 数据 种 种 特性 的 综合 呈现 还 造成 大 数据 处 理 在 系统 层面 系 
) 统 复 杂 性 的 挑战 。 因 此 ， 又 需要 提出 面向 不 同 大 数据 模式 〈 如 离线 历史 数据 与 在 线 流 式 数据 
等 ) 的 新 型 处 理 系 统 架构 以 及 相应 的 评价 体系 与 优化 策略 。 


3.1 大 数据 复杂 性 的 内 在 机 理 


由 于 大 数据 的 出 现 , 人 们 处 理 计算 问题 时 获得 了 前 所 未 有 的 大 规模 样本 , 但 同时 也 不 得 
不 面 对 更 加 复杂 的 数据 对 象 。 其 典型 的 特性 是 类 型 和 模式 多 样 、 关 联 关 系 繁 杂 、 质 量 恨 劳 不 
齐 。 大 数据 内 在 的 复杂 性 使 得 数据 的 感知 、 表 达 、 理解 和 计算 等 多 个 环节 面临 着 巨大 的 挑战 ， 
导致 了 传统 全 量 数据 计算 模式 下 时 空 维度 上 计算 复杂 度 的 激增 。 很 多 传统 的 数据 分 析 与 挖 气 
任务 ， 如 检索 、 主 题 发 现 、 语 义 和 情 感 分 析 等 ， 变 得 异常 困难 。 然 而 目前 ， 人 们 对 大 数据 复 
杂 性 的 内 在 机 理 及 其 背后 的 物理 意义 缺乏 理解 ， 对 大 数据 的 分 布 与 协作 关联 等 规律 认识 不 
E 对 大 数据 的 复杂 性 和 计算 复杂 性 的 内 在 联系 还 不 能 完全 揭示 , 加 上 缺少 面向 领域 的 大 数 
据 处 理 知识 , 凡 此 种 种 极 大 地 制约 了 人 们 对 大 数据 高 效 计算 模型 和 方法 的 设计 能 力 。 有 鉴于 


= 此 , 如 何 量化 定义 大 数据 复杂 性 的 本 质 特 征 及 其 外 在 度量 指标 ,进而 研究 数据 复杂 性 的 内 在 
e 机 理 是 个 基础 问题 , 需要 建立 多 模 态 关联 关系 下 的 数据 分 布 理论 和 模型 , 厘清 数据 复杂 度 和 


时 空 计算 复杂 度 之 间 的 内 在 联系 , 通过 对 数据 复杂 性 内 在 机 理 的 建 模 和 解析 , 阐明 大 数据 按 
需 约 和 何 、 降 低 复杂 度 的 原理 与 机 制 ， 从 而 莫 定 大 数据 计算 的 理论 基石 。 


3.2 大 数据 的 可 计算 性 及 新 型 计算 范式 


大 数据 规模 巨大 等 特性 使 得 传统 的 计算 方法 已 经 不 能 有 效 地 支持 大 数据 计算 和 处 理 , 在 
求解 大 数据 的 问题 时 ， 需 要 重新 审视 和 研究 它 的 可 计算 性 、 计 算 复杂 性 和 求解 算法 。 特 别 是 
大 数据 计算 不 能 像 小 样本 数据 集 那样 依赖 于 对 全 局 数据 的 统计 分 析 和 人 迭代 计算 , 所 以 需要 突 
破 传统 计算 对 数据 的 “独立 同 分 布 "和 “采样 充分 性 ”的 假设 。 因此 ,研究 面向 大 数据 计算 的 高 
效 新 型 范式 ,改变 人 们 对 数据 计算 的 本 质 看 法 ,提供 处 理 和 分 析 大 数据 的 基本 方法 ,支持 价 
由 驱动 的 特定 领域 应 用 ， 是 大 数据 研究 的 一 个 核心 问题 。 而 大 数据 样本 量 充 分 ， 内 在 关联 关 
系 密切 而 复杂 , 价值 密度 分 布 极 不 均衡 , 这 些 特征 对 研究 大 数据 的 可 计算 性 及 建立 新 型 计算 
范式 提供 了 机 遇 ， 同 时 也 提出 了 挑战 。 这 就 要 求 我 们 研究 大 数据 的 获取 和 表达 ， 研 究 数据 衬 
间 中 各 种 关联 关系 及 其 语义 特征 与 表示 ， 基 于 数据 内 在 结构 、 关 联 关 系 、 产 生 规 律 及 演化 特 
点 ， 发 现 针对 大 数据 的 稳定 计算 模型 ， 特 别 是 针对 计算 问题 的 大 数据 稳定 内 核 和 计算 边界 ， 


— 
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建立 局 部 近似 整体 的 非 确定 性 增 量 学 习 理 论 和 方法 , 进而 提出 不 以 样本 规模 为 变量 的 新 型 计 


算 范式 。 
3.3 大 数据 处 理 系 统 的 效能 评价 与 优化 


大 数据 处 理 系 统 是 支持 大 数据 科学 研究 的 基础 平台 。 对 于 规模 巨大 、 价 值 稀 琉 、 结 构 复 
杂 、 变 化 迅速 的 大 数据 ， 其 处 理 亦 面临 计算 复杂 度 高 、 任 务 周 期 长 、 实 时 性 强 等 难题 。 大 数 
据 及 其 处 理 的 这 些 难 点 不 仅 对 大 数据 处 理 系统 的 系统 架构 、 计 算 框架 、 处 理 方法 提出 了 新 的 
挑战 , 更 对 大 数据 处 理 系统 的 运行 效率 及 单位 能 耗 提出 了 苛刻 要 求 。 对 于 以 高 效能 为 目标 的 
大 数据 处 理 系统 的 系统 架构 设计 、 计 算 框 架设 计 、 处 理 方法 设计 和 测试 基准 设计 研究 ， 其 基 
础 是 大 数据 处 理 系统 的 效能 评价 与 优化 问题 研究 。 这 一 研究 具有 极 大 的 挑战 性 ,不 但 要 求 厘 
清 大 数据 的 复杂 性 、 可 计算 性 与 系统 处 理 效率 、 能 耗 间 的 关系 ,还 要 综合 度量 系统 中 如 系统 
否 吐 率 、 并 行 处 理 能 力 、 作 业 计 算 精 度 、 作 业 单 位 能 耗 等 多 种 效能 因素 ， 更 需要 考虑 实际 负 
载 及 资源 分 散 重 复 等 情况 。 大 数据 处 理 系统 的 效能 评价 与 优化 问题 的 解决 可 芮 定 大 数据 处 理 
系统 设计 、 实 现 、 测 试 与 优化 的 基本 准则 ,是 构建 能 效 优化 的 分 布 式 存储 和 处 理 的 硬件 及 软 
件 系统 架构 的 重要 依据 和 基础 ， 因 此 是 大 数据 科学 研究 必须 解决 的 关键 问题 。 


4 ”大 数据 的 研究 体系 


为 了 解决 大 数据 研究 的 上 述 核 心 问题 , 需要 从 基础 理论 、 核 心 方法 与 关键 技术 以 及 应 用 
系统 三 个 层面 展开 其 体 研究 。 在 基础 理论 层面 , 需要 研究 大 数据 复杂 性 的 解析 与 大 数据 计算 
模型 ， 在 核心 方法 与 技术 层面 ， 需 要 研究 多 源 异 构 大 数据 感知 、 融 合 与 表示 ， 大 数据 内 容 建 
模 与 语义 理解 ， 以 及 感知 、 存 储 与 计算 融合 的 大 数据 计算 系统 架构 体系 ;在 应 用 系统 层面， 
需要 研究 大 数据 处 理 的 软 硬 一 体 化 引擎 系统 。 


4.1 大 数据 复杂 性 的 解析 及 大 数据 计算 模型 


大 数据 规模 庞大 、 类 型 多 样 、 关 联 复杂 的 特点 导致 传统 全 量 数 据 计 算 模 式 不 再 适用 ， 大 
数据 计算 面临 基本 模式 的 挑战 。 如 何 对 大 数据 的 复杂 性 深入 解析 ， 并 在 此 基础 上 构建 高 效 的 
大 数据 计算 模型 ， 成 为 大 数据 处 理 的 核心 问题 。 因 此 ， 在 基础 理论 层面 ， 需 要 围绕 大 数据 复 


r= 杂 性 的 内 在 机 理 、 大 数据 的 可 计算 性 和 新 型 计算 范式 两 个 核心 问题 , 研究 大 数据 复杂 性 规律 
O 发 现 、 大 数据 复杂 特征 度量 与 大 数据 的 计算 模型 。 


(1). 大 数据 复杂 性 规律 发 现 


对 大 数据 复杂 性 规律 的 研究 有 助 于 理解 大 数据 复杂 模式 的 本 质 特征 和 生成 机 理 , 简化 大 
数据 的 表征 ,获取 更 好 的 知识 抽象 ， 指 导 大 数据 计算 模型 和 算法 的 设计 。 具 体 则 需要 研究 针 
对 大 数据 的 新 型 统计 分 析 技 术 , 解决 传统 统计 与 实证 分 析 技 术 在 处 理 极 大 规模 网 络 数据 时 的 
可 扩展 性 。 同 时 对 大 数据 中 多 模 态 关联 的 数据 对 象 之 间 多 维 、 寞 构 、 隐 性 的 关联 关系 进行 研 
究 , 基于 统计 猜想 和 大 数据 驱动 相 结 合 的 方式 , 探索 大 数据 复杂 模式 的 生成 机 理 及 其 背后 的 
物理 意义 。 最 后 , 分 析 大 数据 在 时 空 维度 上 的 数据 分 布 、 内 在 结构 和 协作 关联 的 复杂 性 规律 ， 
形成 对 大 数据 采样 降 维 、 抽 象 表达 和 优化 计算 的 方法 论 。 


(2)， 大 数据 复杂 特征 度量 


大 数据 导致 了 时 空 维度 上 计算 复杂 度 的 激增 , 传统 全 量 数据 计算 模式 在 面 对 大 数据 时 基 
本 不 可 行 ， 吸 需 建立 面向 大 数据 计算 的 数据 复杂 度 理论 , 探索 不 依赖 于 样本 规模 的 大 数据 高 
效 计 算 模 型 和 方法 。 为 此 目的 , 需要 研究 异 构 关联 的 大 数据 中 复杂 特征 的 基本 因素 , 分 析 这 
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些 因素 的 内 在 联系 、 外 在 指标 和 度量 方法 。 进 而 研究 面向 计算 的 数据 复杂 性 度量 模型 ， 定 性 
和 定量 地 衡量 大 数据 的 复杂 程度 ， 厘 清 数据 复杂 度 和 计算 复杂 度 的 理论 联系 。 此 外 ,还 需 研 
究 基 于 数据 复杂 度 的 近似 计算 理论 和 优化 算法 框架 , 以 此 指导 人 们 寻找 面向 计算 的 数据 内 核 
或 者 数据 边界 的 基本 方法 ， 形 成 大 数据 高 效 计算 模型 和 方法 设计 的 理论 基石 。 


(3). 大 数据 的 计算 模型 


由 于 大 数据 往往 呈现 出 异 构 多 模 态 、 复 杂 关 联 、 动态 涌现 等 特点 , 传统 的 科学 假设 以 及 
模型 理论 已 经 无 法 有 效 分 析 和 预测 大 数据 内 在 的 规律 及 其 强 含 的 真实 价值 。 因此 , 需要 重新 
定义 和 度量 数据 的 可 计算 性 ,发 展 以 数据 为 中 心 的 大 数据 的 计算 理论 ,设计 可 靠 的 计算 算法 。 
\ 体 而 言 ， 需要 研究 面 对 大 数据 的 非 确 定性 算法 理论 ， 突破 传统 统计 学 习 中 的 “独立 同 分 布 ” 
假设 ， 研 究 非 确定 化 、 局 部 增 基 的 学 习 理论 ， 提 出 不 依赖 于 全 量 数据 的 新 型 算法 理论 基础 ; 
研究 大 数据 下 以 数据 为 中 心 的 计算 模式 ， 突 破 传统 的 “数据 围绕 机 器 ? 式 计算 ， 构 建 < 以 数据 
为 中 心 ” 的 推送 式 计算 模式 ， 探 索 弱 CAP' 约 束 的 系统 架构 模型 及 其 代数 计算 理论 , 研究 分 布 
化 、 流 式 计 算 算法 ， 形 成 通讯 、 存 储 、 计 算 融 合 优化 的 大 数据 计算 框架 。 


一 4.2 多 源 异 构 大 数据 的 感知 、 融 合 与 表示 

co 大 数据 应 用 关键 的 第 一 步 是 感知 和 融合 数据 并 对 其 进行 有 效 的 表示 。 传 统 数据 管理 技术 

co 擅长 处 理 结构 统一 、 语 义 清楚 、 质 量 可 靠 的 结构 化 数据 ， 而 大 数据 多 源 异 构 、 良 劳 不 齐 、 动 
态 变化 的 特点 使 得 感知 、 获 取 高 质量 数据 并 对 其 进行 融合 表示 是 一 个 非常 具有 挑战 性 的 课 


题 。 因 此 , 需要 在 核心 方法 与 技术 层面 围绕 大 数据 的 可 计算 性 和 新 型 计算 范式 这 一 核心 问题 ， 
在 多 源 异 构 大 数据 的 感知 和 获取 、 大 数据 的 融合 与 质量 控制 、 以 及 大 数据 的 图 与 张 量 表示 等 
方面 展开 研究 ， 以 建立 大 数据 准确 高 效 的 感知 、 融 合 与 表示 方法 。 


(1). 多 源 异 构 大 数据 的 感知 和 获取 


于 大 数据 的 无 边界 分 布 和 自 组 织 特性 , 高 质量 数据 的 感知 和 获取 是 大 数据 处 理 非常 重 
要 的 第 一 步 。 然 而 传统 的 基于 疏 虫 的 通用 数据 感知 和 获取 技术 在 应 对 规模 更 大 、 数 据 类 型 更 
为 复杂 、 更 新 速度 更 快 的 大 数据 上 越 来 越 力 不 从 心 。 同 时 ,传统 信息 抽取 技术 主要 被 用 于 小 
规模 的 文本 数据 处 理 ， 无 法 应 对 大 数据 的 动态 变化 和 多 源 异 构 所 带 来 的 挑战 。 因 此 ,我们 需 
要 研究 多 源 异 构 大 数据 的 精确 感知 和 高 效 获 取 算法 , 突破 已 有 的 针对 小 规模 和 静态 的 数据 设 
计 的 爬虫 架构 和 算法 ， 建 立 实时 智能 收集 主题 相关 的 大 数据 的 感知 和 获取 框架 。 同 时 ， 还 要 
研究 兼顾 精度 和 性 能 的 大 数据 获取 算法 ,分析 数据 获取 算法 的 精度 、 稳 定性 与 数据 规模 的 关 
系 , 实现 对 非 结构 化 异 构 数据 的 高 效 结构 化 方法 , 克服 传统 复杂 抽取 模型 在 处 理 大 规模 数据 
时 的 低 性 能 瓶 希 。 


(2). 大 数据 的 融合 与 质量 控制 


大 数据 的 生命 力 很 大 程度 上 来 自 于 它 的 开放 性 。 而 这 种 开放 性 的 一 个 负面 效果 就 是 造成 
了 大 数据 质量 的 恨 劳 不 齐 ， 很 多 数据 包含 了 大 量 的 噪音 、 元 余 和 错误 。“ 大 而 低 质量 ”的 数据 
往往 不 能 有 效 支 撑 大 数据 分 析 和 应 用 。 人 简单 地 认为 数据 越 多 越 好 而 不 关心 数据 的 质量 会 使 得 
分 析 的 结果 变 得 难以 预料 。 26 — 21180. 属于 同一 个 实体 或 概念 的 数据 往往 在 多 个 数据 源 中 以 
不 同 的 形式 表示 , 数据 集成 和 融合 技术 被 用 于 将 这 些 不 同形 式 的 数据 进行 统一 和 集成 。 传 统 
的 数据 融合 和 质量 控制 技术 主要 针对 规模 较 小 且 语 义 清 楚 的 结构 化 数据 , 而 面向 大 数据 的 数 
据 融合 和 质量 控制 仍然 是 一 个 需要 深入 研究 的 问题 。 具 体 而 言 ， 需要 在 现 有 的 数据 集成 与 融 
合 技 术 的 基础 上 ,结合 大 数据 的 异 构 性 、 匈 余 性 和 相关 性 等 特性 , 研究 大 数据 的 数据 融合 和 
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集成 方法 ， 以 有 效 地 解决 大 数据 获取 的 全 面 性 和 一 致 性 问题 。 男 外 ， 还 需 与 众 包 、 概 率 推理 
等 技术 结合 , 研究 大 数据 的 质量 判定 方法 和 去 噪 、 去 元 、 清洗 等 质量 控制 方法 ,从 而 得 到 “大 
而 高 质量 ”的 大 数据 。 


(3)， 大 数据 的 图 与 张 量 表示 


大 数据 中 的 数据 实体 之 间 不 是 彼此 独立 的 , 往往 具有 一 些 错综复杂 的 关联 关系 。 这 类 复 
杂 的 关联 关系 通常 可 以 图 结构 和 张 量 的 形式 来 表示 。 一 方面 , 如 何 对 复杂 的 图 结构 数据 进行 
在 线 分 析 处 理 , 成 为 近年 来 学 术 界 和 工业 界 广泛 关注 的 一 个 关键 问题 。 如 何 为 大 规模 图 结构 
产生 小 规模 且 可 以 理解 的 概要 信息 ， 如 何 对 关联 关系 进行 压缩 以 便于 图 数据 的 存储 和 维护 ， 
都 是 非常 重要 的 研究 课题 。 因 此 ， 需 要 针对 图 数据 的 大 规模 异 构 动态 特征 ， 深入 研究 基于 图 
数据 的 模型 表示 以 及 基于 图 数据 的 联机 分 析 处 理 技术 。 另 一 方面 ,同样 十 分 重要 的 是 针对 大 


a 


从 原始 多 源 、 高 维 数据 集中 选择 最 合适 的 张 量 表达 数据 模型 , 进而 研究 大 数据 所 蕴含 的 各 类 
异 质 特征 如 何在 高 阶 张 量 形式 下 得 到 统一 表达 。 


4.3 大 数据 的 内 容 建 模 与 语义 理解 


传统 的 基于 静态 、 浅 层 特 征 对 数据 建 模 的 方法 , 已 经 无 法 适应 当前 越 来 越 多 的 对 数据 内 
容 深层 理解 和 计算 应 用 的 需求 。 大 数据 的 出 现 提 供 了 对 数据 内 容 深层 建 模 和 语义 理解 的 契 
机 , 然而 大 数据 的 种 种 特性 又 对 其 内 容 建 模 和 语义 理解 的 深度 .关联 性 与 准确 性 提出 了 挑战 。 
因此 , 需要 在 核心 方法 与 技术 层面 结合 大 数据 的 特征 就 大 数据 的 特征 模型 、 内 容 建 模 和 语义 
理解 三 个 方面 展开 研究 ， 实 现 对 大 数据 的 内 容 理 解 及 演变 规律 的 把 握 。 


(1)， 带 时 序 的 特征 层次 模型 


针对 大 数据 复杂 、 动 态 和 隐蔽 等 基本 特性 ,我们 需要 研究 大 数据 的 特征 层次 模型 。 具体 
而 言 ， 需 要 在 范式 理论 的 基础 上 ,研究 特征 的 表达 范式 ， 从 特征 的 表达 性 、 排 他 性 和 相似 性 
的 角度 定义 特征 的 描述 规范 ,给 出 低级 范式 向 高 级 范式 转换 的 方法 。 同 时, 在 特征 范式 的 规 
约 下 ， 从 特征 结构 及 其 索引 结构 两 方面 研究 特征 结构 模型 ， 以 解决 大 数据 环境 下 ,特征 的 组 
织 与 管理 问题 ,进一步 研究 特征 结构 模型 上 的 语义 操作 问题 ,通过 扩展 本 体 代 数 的 逻辑 运算 、 


‘= 集合 运算 ， 定 义 特 征 语义 获取 、 特 征 语义 更 新 和 特征 语义 查询 算 子 ， 探 索 大 数据 语义 计算 的 
O 新 型 范式 。 


(2). 大 数据 特征 感知 与 内 容 建 模 


大 数据 的 规模 与 多 源 异 构 特性 使 得 对 其 内 容 , 特别 是 多 媒体 内 容 特 征 的 识别 成 为 一 项 十 
分 具有 挑战 性 的 问题 。 因此 需要 探索 有 别 于 传统 方法 的 新 的 解决 思路 , 需要 研究 基于 大 数据 
特征 的 内 容 建 模 技 术 ， 以 便 及 时 准确 地 感知 大 数据 的 特征 。 有 具体 而 言 ， 需 要 研究 张 量 空间 下 
的 基于 深度 学 习 的 特征 提取 方法 , 获取 数据 的 深层 语义 特征 ; 研究 基于 大 数据 的 属性 学 习 理 
论 和 方法 ， 以 及 面向 多 源 异 构 大 数据 的 跨 域 多 任务 学 习 ; 最 后 , 研究 基于 数据 驱动 的 大 数据 
内 容 分 析 与 建 模 。 
(3)， 基 于 知识 图 谱 的 大 数据 特征 语义 理解 

大 数据 环境 下 的 语义 理解 是 基于 语义 的 新 型 计算 范式 的 核心 。 因 此 , 我 们 需要 基于 知识 
图 谱 展 开 对 大 数据 特征 语义 理解 的 研究 。 具体 来 说 , 我 们 需要 研究 面向 知识 图 谱 的 领域 知识 
迭代 式 获取 方法 , 实现 对 特定 领域 中 特定 主题 及 其 情境 的 抽取 ; 研究 基于 本 体 和 大 众 分 类 的 
语义 标注 、 链 接 本 体 的 协作 关联 推理 和 语义 浮现 技术 , 结合 社交 网 络 探索 新 型 的 数据 链接 方 
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法 , 促进 和 -人 、 信 -机 、 机 -机 对 大 数据 的 语义 增强 型 内 容 的 理解 ; 研究 面向 异 构 大 数据 之 间 
协作 关联 关系 的 内 容 语 义 互 操作 管理 方法 ， 解 决 大 数据 环境 下 内 容 语 义 如 何 计算 的 问题 。 


4.4 感知 、 存 储 与 计算 融合 的 大 数据 计算 系统 架构 体系 


大 数据 对 相应 的 计算 系统 提出 了 高 性 能 、 可 扩展 、 高 可 靠 和 低能 耗 等 要 求 。 为 此 ， 我 们 
需要 围绕 “大 数据 处 理 系统 的 效能 评价 与 优化 ”这 一 核心 问题 , 结合 大 数据 的 价值 稀疏 性 和 访 
问 弱 局 部 性 的 特点 ， 研 究 针对 能 效 优化 的 大 数据 分 布 存储 和 处 理 的 系统 架构 。 以 “大 数据 感 
知 、 存 储 与 计算 融合 "为 指导 思想 ， 在 性 能 评价 体系 、 分 布 式 系统 架构 、 流 式 数 据 计 算 框 架 、 
在 线 数据 处 理 方法 等 方面 展开 基础 性 研究 , 并 对 作为 重要 验证 工具 的 基准 测试 程序 及 系统 性 
能 预测 方法 进行 研究 ， 通 过 设计 、 实 现 与 验证 的 迭代 完善 ， 最 终 实 现 大 数据 计算 系统 的 数据 
获取 高 吞吐 、 数 据 存储 低能 耗 和 数据 计算 高 效率 。 


(1). 大 数据 计算 基准 测试 程序 及 性 能 预测 方法 


与 高 性 能 计算 不 同 ， 大 数据 计算 的 性 能 不 仅 与 计算 算法 密切 相关 ， 而 且 与 数据 规模 、 数 
据 分 布 和 用 户 访问 行为 密切 相关 。 当 前 ， 以 数据 为 中 心 的 新 型 计算 系统 缺乏 有 效 的 效能 评价 
模型 和 基准 测试 方法 , 这 是 制约 大 数据 处 理 系统 体系 架构 优化 和 统一 评价 的 主要 因素 。 为 了 
解决 这 个 问题 , 需要 研究 大 数据 计算 基准 测试 程序 的 构造 方法 , 探索 应 用 负载 的 特征 表达 及 
状态 约 简 方 法 ， 并 从 数据 规模 、 数 据 分 布 、 用 户 行为 和 程序 算法 等 多 个 角度 建立 代表 性 大 数 
据 计 算 基 准 测试 程序 集合 。 进 一 步 ， 要 分 析 大 数据 计算 系统 多 个 部 件 之 间 在 缓存 、 副 本 、 一 
致 性 策略 等 方面 的 相互 影响 ， 建 立 各 种 复杂 条 件 下 大 数据 计算 系统 运行 时 的 性 能 行为 模型 ， 
提出 以 小 规模 情况 下 的 性 能 行为 预测 真实 大 系统 环境 性 能 的 性 能 推演 方法 。 最 终 , 建立 考虑 
数据 质量 、 服 务 质量 和 运 维 成 本 等 多 方面 因素 的 综合 评价 体系 , 为 大 数据 处 理 系统 的 体系 结 
构 、 系 统 软 件 和 应 用 软件 的 研究 提供 依据 。 


Q). 感知、 存储 与 计算 融合 的 分 布 式 系统 架构 


传统 的 海量 数据 处 理 系 统 没 有 将 数据 的 感知 获取 、 存 储 和 计算 融 为 一 体 , 难以 同时 实现 
数据 的 快速 获取 和 高 效 处 理 , 而 这 对 大 数据 处 理 来 说 是 至 关 重 要 的 。 为 此 需要 研究 存储 与 处 
理 耘 合 的 大 数据 计算 分 布 式 系统 架构 ， 实 现 处 理 单元 和 存储 单元 耦合 部 署 的 协同 工作 模式 ; 
‘= 研究 利用 专 有 硬件 设备 与 大 数据 处 理 系统 的 层 接 方法 和 实现 技术 , 解决 专用 硬件 与 通用 软件 
e 的 对 接 问题 ; 研究 软 硬 件 协同 的 数据 和 计算 双向 流动 理论 ,克服 单一 数据 流动 造成 的 网 络 延 
迟 高 和 单一 计算 流动 难以 避免 的 负载 不 均衡 的 困难 ;分 析 大 数据 计算 范畴 的 线性 或 非 线性 的 
流 式 、 实 时 、 或 离线 等 典型 数据 密集 型 的 负载 特征 ， 以 及 包括 通用 处 理 器 在 内 的 多 种 便 件 对 
不 同 特征 负载 的 计算 效能 ,研究 充分 利用 专用 硬件 分 流通 用 处 理 器 负载 的 方法 和 技术 , 并 提 
出 感知 、 存 储 与 计算 融合 的 大 数据 分 布 策 略 与 约 简 方 法 , 实现 大 数据 规模 效应 下 的 数据 可 靠 
存储 和 计算 持续 容错 。 


(3)， 弱 数据 访问 局 部 性 的 在 线 大 数据 处 理 方法 


数据 访问 局 部 性 是 现代 高 性 能 计算 机 设计 获得 成 功 的 基础 。 而 大 数据 具有 价值 稀 朴 、 访 
问 局 部 性 差 的 特点 , 所 以 迫切 需要 研究 突破 数据 访问 局 部 性 的 在 线 大 数据 处 理 方法 。 具体 包 
括 以 下 几 个 方面 : 研究 大 数据 应 用 的 数据 访问 特征 ， 透 过 数据 访问 的 弱 局 部 性 挖掘 数据 访问 
的 关联 规则 ， 研 究 面 向 数据 访问 弱 局 部 性 的 处 理 器 缓存 (Cache) 调度 算法 ， 根 据 数据 访问 
的 关联 规律 来 实现 数据 预 取 与 数据 缓存 的 双重 优化 ; 研究 基于 存储 级 内 存 等 新 型 存储 器 件 的 
大 数据 布局 策略 , 实现 海量 弱 访 问 局 部 性 数据 的 内 存 级 访问 性 能 ; 研究 基于 访问 关联 性 的 大 
数据 存储 策略 ,实现 方便 缓存 或 预 取 的 访问 关联 数据 的 集中 就 近 存 储 。 研究 基于 领域 语义 的 
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大 数据 高 效 压缩 理论 ,依据 时 间 维 度 上 的 数据 演化 与 溯源 信息 ， 去 除 重复 数据 、 和 衍生 数据 和 


领域 无 关 数 据 。 
4.5 大 数据 处 理 的 软 硬 一 体 化 引擎 系统 


软 人 硬件 一 体 化 引擎 系统 则 在 利用 基础 理论 和 核心 方法 与 关键 技术 两 个 层面 的 研究 成 果 ， 
在 感知 、 存 储 与 计算 相 融 合 的 大 数据 计算 系统 架构 体系 中 把 对 多 源 异 构 大 数据 的 感知 、 表 示 、 
建 模 、 理 解 与 分 析 等 一 系列 核心 方法 和 关键 技术 系统 性 地 整合 起 来 , 形成 大 数据 综合 处 理 的 
有 形 系统 。 


(1). 无 栈 式 运 行 时 软 硬 件 一 体 化 系统 体系 结构 


体系 结构 的 设计 是 实现 高 性 能 、 高 可 靠 和 低能 耗 的 一 体 化 系统 的 关键 。 为 此 ， 需 要 研究 
体现 大 数据 应 用 共性 访问 特征 的 富 语 义 编程 模型 ,降低 大 数据 应 用 编程 难度 , 并 方便 底层 子 
系统 针对 多 个 大 数据 应 用 进行 统一 优化 设计 ;研究 基于 数据 流 的 多 源 异 构 大 数据 计算 框架 ， 
使 用 户 只 需 进行 基于 有 向 无 环 图 的 应 用 编程 , 而 无 需 掌 握 分 布 式 集群 计算 的 细节 ; 研究 旁 路 

传统 操作 系统 的 机 制 及 方法 ,实现 “无 栈 式 ”的 系统 运行 时 结构 ， 并 分 析 如 何在 大 规模 异 构 机 
~ 群 中 为 混合 负载 合理 分 配 资源 ; 针对 资源 碎片 , 混合 负载 并 存 以 及 调度 算法 量化 评估 等 问题 ， 
) 提出 大 规模 分 布 式 机 群 自 反馈 式 资源 调度 算法 , 从 生产 环境 取得 实际 采样 数据 并 人 迭代 优化 资 
源 调度 算法 。 


(2). 大 数据 处 理 软 硬 一 体 化 引擎 系统 


在 大 数据 计算 系统 性 能 行为 模型 的 指导 下 , 面向 大 数据 生产 的 实际 应 用 需求 , 研究 数据 
获取 、 存 储 、 处 理 、 交 换 到 服务 的 全 生命 周期 实现 技术 , 研究 大 数据 计算 系统 组 成 部 分 的 最 
小 共性 集合 , 研究 系统 各 组 成 部 分 之 间 的 逻辑 关系 和 接口 模式 , 实现 可 同时 支持 多 种 数据 计 
算 场 景 的 软件 包 一 大 数据 处 理 引擎 , 包括 数据 分 析 和 挖 据 的 算法 。 为 了 适应 多 用 户 在 线 和 离 
线 数据 计算 等 不 同 的 应 用 场景 ,支持 数据 安全 性 , 研究 多 租户 资源 隔离 、 性 能 隔离 和 安全 隔 
离 机 制 和 技术 。 最 后 集成 相关 技术 和 研究 成 果 ， 在 大 数据 计算 引擎 的 支撑 下 ， 充 分 利用 专用 
加 速 便 件 ， 形 成 集 大 数 据 的 搜索 、 控 所、 统计 与 分 析 于 一 身 的 软 人 硬件 一 体 化 数据 计算 系统 。 
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近 几 年 , 大 数据 迅速 地 发 展 成 为 各 行 各 业 都 共同 面 对 的 问题 。 与 传统 规模 的 数据 工程 术 
比 ， 大 数据 具有 规模 大 、 类 型 多 、 速 度 快 、 可 靠 性 低 、 价 值 密度 低 等 显著 特征 。 这 些 特性 引 
起 了 大 数据 在 三 个 不 同 层面 的 复杂 性 ， 即 ， 数 据 复杂 性 、 计 算 复 杂 性 与 系统 复杂 性 ， 同 时 
造成 了 大 数据 的 感知 、 人 获取、 存储、 表示、 理解 、 处 理 和 分 析 等 一 系列 的 巨大 挑战 。 面 对 上 
述 复 杂 性 与 挑战 , 本 文 分 析 并 提出 大 数据 复杂 性 的 内 在 机 理 、 大 数据 的 可 计算 性 及 新 型 计算 
范式 和 大 数据 处 理 系统 的 效能 评价 及 优化 是 大 数据 研究 的 三 个 核心 问题 。 在 此 基础 上 ， 从 基 
础 理论 、 核 心 方法 与 关键 技术 以 及 应 用 系统 三 个 层面 对 由 大 数据 复杂 性 的 解析 与 大 数据 计算 
模型 ， 多 源 异 构 大 数据 感知 、 融 合 与 表示 ， 大 数据 内 容 建 模 与 语义 理解 ， 大 数据 计算 系统 架 
构 体 系 ， 以 及 大 数据 处 理 的 软 便 一 体 化 引擎 系统 所 构 成 的 研究 体系 进行 了 分 析 。 
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